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摘 要 : 面 对 大 数据 规模 庞大 且 计 算 复杂 等 问题 ， 基 于 MapReduce 框架 采用 两 阶段 渐进 式 的 聚 类 思想 , 提出 了 改进 的 
K-means 并 行 化 计算 的 大 数据 聚 类 方法 。 第 一 阶段 ， 该 算法 通过 Canopy 算法 初始 化 划分 聚 类 中 心 ， 从 而 迅速 获取 粗 精 
度 的 聚 类 中 心 点 ; 第 二 阶段 ， 基 于 MapReduce 框架 提出 了 并 行 化 计算 方案 ， 使 每 个 数据 点 围绕 其 邻近 的 Canopy 中 心 
进行 细 化 的 聚 类 或 合并 ， 从 而 对 大 数据 实现 快速 、 准 确 地 聚 类 分 析 。 在 MapReduce 并 行 框架 上 进行 算法 验证 ， 实 验 结 
果 表 明 ， 所 提 算 法 能 够 有 效 地 提升 并 行 计算 效率 ， 减 少 计 算 时 间 ， 并 提升 大 数据 的 聚 类 精度 。 
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Parallel computation algorithm for big data clustering based on MapReduce 


Zhang Wenjie'”, Jiang Liehui 
(1. Faculty of Cyberspace Security, PLA Information Engineering University, Zhengzhou 450001, China; 2. State Key Lab Math 
Enen & Adv Comp, Zhengzhou 450001, China) 


Abstract: Aiming at solving the problem of big data's large Scale and complex computation, this paper adopt the ldea of two- 
stage progressive clustering, and proposes a parallel computation algorithm for big data clustering based on MapReduce. In the 
first stage, our method acquires the initialized clustering center through Canopy algorithm, in order to find relatively accurate 
cluster center points qulckly. In the second stage, , we present a novel Scheme of parallel computation based on MapReduce 
framework, which makes each data node cluster or merge around its adjacent Canopy center node. In this way, the algorithm 
can make the procedure of data clustering fast and accurately. The results of the experiments deployed on MapReduce show that 


our algorithm can effectively Improve the efficiency of parallel computing, reduce computing time, and improve big data's 
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clustering accuracy. 
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随 着 互联 网 通信 、 数 据 存储 、 信 息 处 理 等 技术 的 快速 发 展 ， 
各 行 各 业 都 需要 存储 、 分 析 和 处 理 爆炸 性 增长 的 业务 数据 。 网 
络 大 数据 的 分 析 与 处 理 ， 己 经 发 展 成 为 当前 非常 重要 的 研究 领 
域 。 大 数据 体 量 庞大 且 计 算 复杂 等 问题 ， 严 重 限制 了 信息 产业 
的 技术 应 用 于 发 展 UY。 在 大 数据 背景 下 如 何 实现 快速 高 效 的 数 
据 聚 类 ， 已 经 成 为 大 数据 挖掘 与 分 析 鹃 需 解决 的 重要 问题 和。 

聚 类 分 析 是 大 数据 分 析 领 域 一 个 重要 的 研究 方向 ， 开 - 
means 算法 是 其 中 应 用 较为 广泛 的 经 典 算法 之 一 。 该 算法 具有 
应 用 简便 、 聚 类 速度 快 等 特点 申 ， 但 需要 预 设置 K 值 〈《 聚 类 中 
心 数量 ), 随机 选择 聚 类 中 心 点 可 能 导致 聚 类 结果 为 局 部 最 优 。 
在 大 数据 条 件 下 ，K-means 算法 的 这 些 问 题 进一步 凸显 ， 影 响 
大 数据 聚 类 的 精度 和 效率 。 针 对 这 些 问 题 ， 近 年 来 有 相关 的 研 
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完工 作 开 始 展开 。 文 献 [6] 提 出 了 一 种 基于 Hadoop 平台 的 K- 
means 并 行 计 算 的 聚 类 方法 ， 该 算法 通过 引导 大 数据 集聚 类 中 
心 的 初始 划分 ， 减 小 随机 选择 聚 类 中 心 的 不 确定 性 ， 并 基于 
Hadoop 平台 提出 了 并 行 化 计算 方法 , 以 改善 大 数据 聚 类 的 效率 
和 准确 性 。 文 献 [7] 提 出 一 种 并 行 化 的 PAM 聚 类 算法 ， 该 算法 
结合 蚁 群 算法 以 提升 聚 类 迭代 过 程 中 的 搜索 性 能 ， 从 而 提升 
PAM 聚 类 算法 的 收敛 速度 并 改善 算法 的 大 数据 聚 类 性 能 。 文 
献 [8] 在 MapReduce 框架 上 ， 提 出 一 种 基于 样本 预 处 理 策略 的 
K-means 并 行 算 法 ,该 算法 结合 K 选择 排序 算法 进行 并 行 采 样 ， 
以 提高 采样 效率 ， 提 升 聚 类 算法 的 运行 效率 。 

针对 K-means 聚 类 算法 在 大 数据 环境 下 效率 不 高 等 问题 ， 
本 文 基 于 MapReduce 框架 ,提出 了 改进 的 K-means 并 行 化 计算 
的 大 数据 聚 类 方法 。 区 别 于 传统 的 聚 类 算法 ， 该 算法 采用 了 两 
阶段 渐进 式 的 聚 类 思想 。 在 第 一 阶段 ， 通 过 Canopy 算法 初始 
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化 划分 聚 类 中 心 ， 从 而 迅速 获取 粗 精 度 的 聚 类 中 心 点 ; 在 第 二 
阶段 ， 基 于 MapReduce 框架 给 出 了 并 行 化 设计 方案 , 使 外 围 数 
据点 围绕 其 邻近 的 Canopy 中 心 完 成 进一步 地 细 化 聚 类 或 合并 ， 
将 每 个 数据 点 划分 至 距离 最 近 的 聚 类 中 心 ， 并 重新 计算 每 个 聚 
类 中 心 新 的 中 心 点 ,从 而 对 大 数据 实现 快速 .准确 地 聚 类 分 析 。 

引入 Canopy 算法 ， 每 次 只 比较 落 在 同一 区 域内 对 象 与 中 
心 点 之 间 的 距离 ， 通 过 减少 比较 次 数 大 大 降低 整个 聚 类 的 运行 
时 间 ， 从 而 提高 算法 的 计算 效率 ， 优 化 大 数据 的 聚 类 过 程 。 更 
重要 的 是 ， 本 文 算法 通过 引入 “最 小 最 大 原则 ”， 避 免 了 了 人工 设 
置 区 域 半径 T1、T2 币 来 的 干扰 ， 使 得 任意 两 个 Canopy 中 心 点 
之 间 的 距离 尽 可 能 远 ， 从 而 避免 聚 类 过 程 陷入 局 部 最 优 。 


1 ”研究 背景 概述 


2004 年 ，Google 公司 推出 了 MapReduce 编程 模型 以 批量 
处 理 大 数据 集 ， 并 基于 此 开发 出 了 Hadoop 大 数据 批量 处 理 架 
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构 。Hadoop 是 一 个 开源 的 高 效 云 计 算 基础 架构 平台 , 利用 通用 
的 便 件 就 可 以 构建 一 个 强大 、 稳 定 、 人 简单 ， 并 且 蜗 效 的 分 布 式 
集群 计算 系统 。 

MapReduce 提供 了 一 种 新 的 对 海量 数据 的 处 理 方式 ， 通 过 
抽象 出 分 层次 的 编程 模型 ， 从 而 大 大 简化 将 大 数据 分 片 成 子 任 
务 ， 并 同时 在 集群 计算 机 上 运行 的 过 程 >9。 

MapReduce 框架 一 般 将 大 数据 并 行 计 算 划 分 为 Map、 
Combine、Reduce 三 个 步骤 。 在 Map 阶段 ，Map 函数 将 输入 数 
据 转 换 为 <key, value> 序 列 ; 在 Combine 阶段 ，Combine 函数 对 
Map 函数 的 输出 结束 在 本 地 进行 合并 和 处 理 ， 以 减 小 大 数据 聚 
类 过 程 中 的 VO 负担 ; 在 Reduce 阶段 ，Reduce 函数 将 获得 的 
<key，value> 序列 按照 算法 设 定 的 规则 进行 聚 类 处 理 。 
MapReduce 并 行 计算 的 框架 如 图 1 所 示 。 通 过 利用 MapReduce 
框架 和 接口 ， 能 够 简化 并 行 化 开 友 过 程 ， 便 于 有 效 地 组 织 和 应 
用 分 布 式 资源 ， 蜗 效 便捷 地 进行 大 数据 分 析 和 计算 。 
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图 1 基于 MapReduce 的 K-means 并 行 算法 框架 


Fig.1 


阶段 1: 基于 Canopy 算 法 的 
聚 类 中 心 初始 化 


从 HDFS | | 将 数据 点 聚 
中 读 取 一 -> 


数据 


基于 Canopy 
算法 初始 化 


聚 类 中 心 


EE 取 粗 精 撒 | fx > 
一 > 关 到 最 近 的 | 的 汉 关 中 心 站- 区 演 所 5 聚 拓 和 >| 新 划分 聚 类 中 心 和 人 | 庆 。 结 果 


下 -means parallel algorithm framework based on MapReduce 


阶段 2: 基 于 MapReduce 的 改进 
并 行 聚 类 算法 
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图 2 基于 MapReduce 的 并 行 化 聚 类 算法 流程 


Fig.2 Parallel clustering algorithm flow based on MapReduce 


2 基于 MapReduce 的 并 行 化 聚 类 算法 


基于 MapReduce 的 并 行 化 聚 类 算法 流程 如 图 2 所 示 。 

K-means 算法 一 般 需 要 随机 设置 初始 化 的 聚 类 中 心 点 ， 使 
得 聚 类 结果 易 受 中 心 点 选取 的 影响 ， 造 成 聚 类 结 末 往往 出 现 局 
部 最 优 ， 甚 至 不 稳定 0。 针 对 这 些 问 题 ， 本 文 提 出 一 种 两 阶段 
渐进 式 的 聚 类 算法 。 该 算法 在 第 一 阶段 及 用 Canopy 算法 获取 
初始 化 的 聚 类 中 心 ， 从 而 迅速 获取 粗 精度 的 聚 类 中 心 点 ， 第 二 
阶段 基于 MapReduce 框 染 采 用 并 行 化 计算 的 改进 设计 , 迭代 计 
算 外 围 数据 点 与 其 邻近 聚 类 中 心 的 距离 ， 将 每 个 数据 点 划分 至 
距离 最 近 的 聚 类 中 心 ， 并 重新 计算 每 个 聚 类 中 心 新 的 中 心 点 。 
改进 后 的 K-means 算法 通过 两 阶段 渐进 式 的 聚 类 ， 通 过 局 部 聚 
类 中 心 和 中 心 点 的 调整 ,实现 对 大 数据 快速 、 准 确 地 聚 类 分 析 ， 


从 而 大 大 减少 计算 量 和 复 洒 度 ， 同 时 避免 聚 类 结果 陷入 局 部 
最 优 效果 的 问题 ， 有 效 提升 了 算法 的 整体 聚 类 精度 。 
2.1 初始 化 聚 类 中 心 
Canopy 算法 计算 速度 快 , 但 聚 类 精度 较 粗 , 适合 用 于 获取 
大 数据 的 初始 化 聚 类 中 心 0223。 该 算法 需要 设置 两 个 距离 浆 值 
和、4 (< 人 )，, 初始 化 聚 类 中 心 的 具体 流程 (图 3) 如 下 : 
a) 将 大 数据 集中 的 数据 点 存储 为 List 集合 ; 
b) 从 List 中 随机 删除 一 个 点 已 ， 这 个 点 构成 一 个 新 的 聚 类 


中 心 Clu, ; 
0) 搜 索 List 中 剩 下 的 数据 点 ,若菜 数据 点 8 与 点 P 的 间距 


小 于 瑟 ， 则 将 点 0 并 入 到 聚 类 中 心 Clu, 中 ; 


d) 遍 历 聚 类 中 心 Clu, 中 所 有 的 数据 点 ， 若 数据 点 与 点 忆 


的 间距 小 于 五 ， 则 将 点 i 从 List 集合 中 删除 ; 

e) 重 复 执 行 步骤 b) ~d)， 将 集合 List 中 所 有 数据 点 都 划分 
到 对 应 的 聚 类 中 心 ; 

有 停止 欠 代 ， 获 取 大 数据 集 的 初始 化 聚 类 中 心 。 

Canopy 初始 中 心 点 的 个 数 决定 了 聚 类 类 别 数 K, 该 值 一 般 
由 经 验 或 者 多 次 实验 设 定 。 为 解决 Canopy 区 域 半径 TT1、72 以 
及 初始 中 心 点 的 随机 选取 问题 ， 本 文 引入 “最 小 最 大 原则 ”对 该 
算法 进行 改进 ， 提 出 Canopy 中 心 点 的 优化 选取 与 设置 方法 。 
该 方法 的 基本 思路 是 : 将 数据 集合 划分 为 若干 个 Canopy, 任意 
两 个 Canopy 中 心 点 之 间 的 距离 代表 聚 类 类 别 间 距 。 为 了 避免 
聚 类 过 程 陷入 局 部 最 优 ， 初 始 的 Canopy 中 心 点 间距 应 尽 可 能 
J 

Canopy 算法 能 够 以 较 小 的 代价 , 粗略 地 将 大 数据 集 划 分 成 
若干 个 重 营 子 集 ,每 个 子 集 可 视 为 一 个 聚 类 中 心 。 通 过 Canopy 
算法 对 数据 点 进行 粗略 划分 ， 然 后 在 此 基础 上 进行 进一步 的 聚 
类 .而 且 通 过 聚 类 中 心 划分 , 每 个 数据 点 已 经 明确 其 隶属 关系 ， 
从 而 无 须 计 算 每 个 点 与 每 个 中 心 点 的 距离 ， 而 只 需 计 算 该 点 和 
其 所 在 中 心 点 的 距离 ,并 将 其 归属 到 距离 最 近 的 聚 类 中 心 即 可 ， 
从 而 大 大 减少 了 计算 量 和 复杂 度 。 
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图 3 基于 Canopy 算法 获取 初始 化 聚 类 中 心 的 流程 
Fig.3 Obtaining initial clustering center based on Canopy algorithm 
2.2 聚 类 算法 流程 

改进 后 的 K-means 算法 首先 通过 Canopy 算法 获得 初始 化 
的 聚 类 中 心 ,然后 基于 初始 化 聚 类 中 心 进 行 K-means 聚 类 夺 代 ， 
并 最 终 获 得 聚 类 结 末 。 聚 类 沉 程 如 下 : 

a) 获 取 初 始 化 聚 类 中 心 。 对 于 给 定 的 大 数据 集 X ， 通 过 
Canopy 算法 设 定 的 距离 闪 值 石 、 忆 《五 < 歼 ) ， 划 分 初始 化 的 
聚 类 中 心 。 

b) 数 据点 划分 。 经 Canopy 算法 划分 聚 类 中 心 后 , 每 个 数据 
点 至 少 属于 一 个 聚 类 中 心 或 多 个 聚 类 中 心 。 数 据点 不 需要 再 计 
算 该 点 到 各 中 心 点 的 距离 ， 而 只 需 计 算 并 比较 该 点 所 属 聚 类 中 
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心 点 的 距离 ， 并 将 该 点 划分 到 距 其 最 近 的 聚 类 中 心 。 重 新 划分 
数据 点 后 ， 各 个 聚 类 中 心 之 间 不 会 有 重 奢 的 数据 点 。 

c) 更 新 K-means 中 心 点 。 获 取 重 新 划分 的 聚 类 中 心 后 ， 采 
用 K-means 求 平 均 的 方法 ， 计 算 并 获取 各 个 聚 类 中 心 的 新 中 心 


d) 合 并 K-means 中 心 。 比 较 各 中 心 点 之 间 的 距离 ， 获 取 距 
离 较 近 的 中 心 点 及 对 应 的 聚 类 中 心 。 

e) 合 并 聚 类 中 心 。 合 并 聚 类 较 近 的 聚 类 中 心 ， 并 计算 更 新 
合并 后 的 聚 类 中 心 点 。 采 用 Canopy 算法 思想 ， 重 复 步 台 a) 获 
取 新 的 重 千 聚 类 中 心 。 重复 步 台 b)~d), 对 各 聚 类 中 心 数 据点 进 
行 聚 类 过 代 ， 直 至 算法 收 纹 。 

有 形成 聚 类 结果 。 在 算法 收敛 后 , 将 大 数据 集中 各 个 数据 点 
划分 到 个 聚 类 中 心 , 形成 K 个 不 重 肝 的 聚 类 子 集 , 完成 大 数 
据 聚 类 。 

聚 类 过 程 中 不 仪 要 对 数据 点 进行 吸纳 划分 ， 对 数据 点 所 归 
属 的 聚 类 中 心 也 要 进行 相应 合并 。 合 并 后 缠 吴 新 的 聚 关中 心 ， 
需要 重新 计算 聚 类 中 心 的 中 心 点 ， 并 计算 各 数据 点 至 该 中 心 点 
的 距离 ， 从 而 反复 聚 类 和 迭代， 最 终 实 现 对 整个 大 数据 集 的 有 效 
腿 类 划分 。 

2.3 基于 MapReduce 改进 的 聚 类 算法 的 并 行 化 设计 (图 4) 

为 了 提升 对 大 数据 的 处 理 能 力 ， 进 一 步 提 高 聚 类 效率 和 可 
扩展 性 ， 基 于 MapReduce 框架 分 别 在 Map、Combine、Reduce 
这 三 个 阶段 实现 本 文 算 法 ， 并 行 化 聚 类 大 规模 数据 。 

本 文选 择 Hadoop 平台 中 的 MapReduce 框架 完成 并 行 化 计 
算 对 的 聚 类 过 程 。 首 移 ， 基 于 初始 化 策略 ， 从 存储 在 HDFS 的 
输入 数据 集中 选取 K 个 数据 点 作为 初始 聚 类 中 心 点 ; 然后 ， 执 
行 K-means 改进 算法 的 并 行 化 计算 ， 将 计算 任务 分 解 为 Map、 
Combine 和 Reduce 函数 , 并 在 并 行 化 迭代 计算 过 程 中 完成 大 数 
据 聚 类 。 

1) Map 阶段 

在 该 阶段 中 ，Map 任务 接收 序列 文件 中 的 每 一 行 作为 不 同 
的 键 值 对 二 key,value 二 >， 并 形成 Map 函数 的 输入 。 冯 和 完 ，Map 
函数 计算 每 个 数据 点 与 各 聚 类 中 心 点 之 间 的 距离 ， 其 次 ，Map 
函数 根据 距离 最 短 原 则 ， 将 每 个 数据 点 划分 与 其 距离 最 近 的 聚 
类 中 心 ; 最 后 ，Map 函数 输出 中 间 数 据 人 至 Combine 函数 。 

2) Combine 阶段 

在 该 阶段 中 , 首先 , Combine 函数 从 Map 函数 输出 的 value 
中 提取 所 有 的 数据 点 ， 并 合并 属于 相同 聚 类 中 心 的 数据 点 ， 其 
次 ，Combine 函数 统计 分 配 在 统一 聚 类 中 心 的 数据 点 的 个 数 ， 
并 计算 数据 点 的 均值 ; 最 后 , Combine 函数 将 数据 排序 、 重 组 、 
分 盯 ， 并 输出 每 个 中 心 的 局 部 冥 类 结果 至 Reduce 函数 。 

3) Reduce 阶段 

在 该 阶段 中 ， 首 先 ，Reduce 函数 从 Combine 函数 输出 的 
value 中 提取 所 有 的 数据 点 ， 并 聚合 所 有 聚 类 中 心 的 局 部 结 
其 次 , Reduce 函数 为 每 个 肾 类 中 心计 算 新 的 聚 类 中 心 点 ; 最 后 ， 
Reduce 函数 判断 准则 函数 是 否 收 钱 。 夺 准则 函数 已 收 合 ， 


Reduce 函数 将 输出 最 终结 来 ， 人 耕 则 将 执行 下 一 次 达 代 。 

本 文 算法 的 计算 任务 主要 包括 下 三 个 方面 : a) 计算 数据 点 
与 聚 类 中 心 之 间 的 距离 ; b) 将 每 个 数据 点 划分 至 距离 最 近 的 聚 
类 中 心 ; c) 重新 计算 每 个 聚 类 中 心 新 的 中 心 点 。 其 中 ，Mtap 也 
数 产生 局 部 数据 集 的 聚 类 中 心 ， 过 历 子 集中 的 所 有 数据 点 ， 判 
断 其 与 聚 类 中 心 的 距离 ;， Reduce 阶段 收集 局 部 中 心 点 ， 并 执行 
与 Map 阶段 同样 的 操作 , 合并 局 部 的 聚 类 中 心 ， 形成 新 的 聚 类 
中 心 和 中 心太 ,并 以 < 中 心 皮 ID, 中 心 点 各 维度 值 > 形 式 存 放 在 
本 地 。 最 终 ， 本 文 算法 将 局 部 数据 点 归 到 与 其 距离 最 近 的 KK 中 
心 ， 输出 < 数据 点 ID: 数据 各 维 值 ， 所 属 中心 >， 从 而 获得 聚 类 
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图 4 基于 MapReduce 改进 的 聚 类 算法 的 并 行 化 设计 


Fig.4 Parallel design of improved clustering algorithm based on MapReduce 
3 ”实验 结果 与 分 析 


实验 选择 四 台 Lenovo 台式 机 构建 MapReduce 平台 ， 配 置 
为 mntel) 6 CoredM) i3-3240 3.39 GHz CPU, 4.0 GB 内 存 , Ubuntu 
14.04 的 操作 系统 。 选 择 其 中 三 台电 脑 为 datanode， 剩 下 一 人 台 为 
namenode。 实 验 主要 采用 了 三 个 典型 数据 集 。 一 个 是 UCI 数据 
库 04 中 Iris 数据 集 ， 其 中 包含 150 个 数据 样本 ， 每 个 样本 包括 
四 个 维度 。Iris 数据 集 的 分 类 已 知 , 能 够 用 于 评估 聚 类 算法 的 准 
确 性 。 第 二 个 是 德国 手机 定位 数据 集 Crowdflow， 该 数据 集 为 
1.01 GB， 包 含 13 082 242 定位 数据 。 第 三 个 是 MIT 林肯 实验 
室 收集 了 9 周 的 TCPdump 网 络 连接 数据 ， 形 成 的 KDD CUP9%9 
数据 集 。 其 10% 的 训练 数据 集 包 含 23 种 攻击 类 型 ，494 021 条 
记录 , 每 条 记录 包含 41 个 特征 属性 和 1 个 类 别 属性 , 各 属性 之 
间 用 逗 写 分 隔 。 由 于 该 数据 集 规 模 庞 大 、 结 构 复杂 ， 且 关于 聚 
类 特征 的 先 验 信息 很 充分 ， 非 党 适合 作为 大 数据 聚 类 的 测试 数 
据 。 这 三 个 大 数据 集 的 每 条 数据 都 包含 精度 、 维 度 、 水 平 精 度 
等 多 维 属 性 ， 属 于 典型 的 大 数据 ， 能 够 有 效 验 证 和 评估 算法 的 
聚 类 速度 、 扩 展 性 、 精 度 等 性 能 。 

将 本 文 算法 与 K-means、CTK 和 MMKMEANS 这 三 种 典 
型 算法 进行 比较 ， 并 统一 在 Hadoop 平台 上 进行 聚 类 对 比 。 首 
先 需要 根据 各 个 数据 集 的 实际 情况 设置 参数 : 由 于 Iris 数据 集 
共 包 含 三 类 数据 ， 设 置 K=3; 德国 手机 定位 数据 主要 围绕 城市 
地 理 分 布 形成 了 63 个 聚 类 中 心 ， 设 置 K=63。 

表 1 所 示 为 在 Fis 数据 集 上 四 种 算法 的 聚 类 结果 。 由 于 Iris 
数据 集 较 小 ， 算 法 运行 时 间 区 别 较 小 ， 主 要 比较 数据 聚 类 的 准 
确 率 (precision)。 相 比 传统 的 K-means 算法 ,本 文 算法 将 正确 聚 
类 个 数 从 132 提升 到 143， 准 确 率 提升 了 7.3%。 相 比 其 他 两 种 
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算法 , 本 文 算法 的 数据 点 划分 更 为 合理 , 聚 类 结果 也 最 接近 Iris 
数据 的 实际 分 类 ， 聚 类 精度 在 同类 算法 中 是 最 高 的 。 在 迭代 次 
数 方面 ， 本 文 算法 由 于 需要 初始 化 聚 类 中 心 ， 增 加 了 相应 的 夺 
代 次 数 和 计算 量 ; 但 是 在 小 规模 数据 条 件 下 ， 友 代 次 数 增加 量 
十 分 有 限 ， 增 加 的 并 行 化 计算 时 间 也 几乎 可 忽略 不 计 。 
Crowdflow 数据 集中 数据 点 较 多 ， 数 据 维度 也 更 为 复杂 ， 
适合 比较 在 MapReduce 框架 下 的 并 行 计算 性 能 。 表 2 所 示 为 四 
种 算法 在 Crowdflow 数据 集 上 的 聚 类 结果 。KDD CUP99 数据 
集中 特征 属性 的 维度 更 多 ， 结 构 更 加 复杂 ， 因 此 数据 聚 类 的 计 
算 时 间 更 长 ， 聚 类 准确 度 相 对 较 高 。 表 3 所 示 为 四 种 算法 在 
KDD CUP99 数据 集 上 的 聚 类 结果 。 综 合 四 种 算法 在 两 个 大 数 
据 集 上 的 聚 类 性 能 对 比 可 以 发 现 ， 在 运行 时 间 上 ， 本 文 算法 消 
耗 时 间 最 少 ，K-means 算法 需要 的 运行 时 间 最 多 ， 说 明 在 大 数 
据 条 件 下 ,本 文 算法 尽管 在 增加 了 初始 化 聚 类 中 心 的 计算 过 程 ， 
但 该 算法 优化 了 聚 类 计算 流程 和 并 行 化 计算 流程 ， 使 得 本 文 算 
法 在 大 数据 条 件 下 运行 时 间 大 大 减少 ， 计 算 效 率 大 大 提高 。 后 
时 ， 相 比 其 他 算法 ， 本 文 算法 在 聚 类 准确 率 和 碍 全 率 方面 都 有 


了 不 同 程度 的 提升 ， 说 明 两 阶段 渐进 式 的 聚 类 思想 更 适用 于 大 
数据 聚 类 ， 能 够 有 效 地 减少 运行 时 间 ， 提 升 数据 聚 类 的 准确 率 
和 碍 全 率 。 


表 1 四 种 算法 在 Fis 数据 集 上 的 聚 类 性 能 对 比 


Table ] Comparison of clustering performance between four algorithms 
on Iris dataset 
聚 类 算法 聚 类 个 数 分 布 Precision/% 迭 代 次 数 
本 文 算法 (43,57,50) 95.3 9 
kK-means (32,50,68) 88.0 6 
CTK (37,54,59) 91.2 8 
MMKMEANS (39,55,56) 89.8 8 


表 2 四 种 算法 在 Crowdflow 数据 集 上 的 聚 类 性 能 对 比 
Table 2 Comparison of clustering performance between four algorithms 


on Crowdflow dataset 


聚 类 算法 运行 时 间 /ms 准确 率 /% 查 全 率 /% 
本 文 算法 83784 85.4 82.6 
K-means 153568 63.5 60.8 
CTK 134730 75.2 73.1 
MMKMEANS 122943 72.9 68.5 


表 3 四 种 算法 在 KDD CUP99 数据 集 上 的 聚 类 性 能 对 比 


Table 3 Comparison of clustering performance between four algorithms 


on KDD CUP99 dataset 
聚 类 算法 运行 时 间 /ms 准确 率 /% 查 全 率 /% 
本 文 算 法 98656 88.2 83.9 
K-means 180230 67.4 65.8 
CTK 141393 79.5 76.4 
MMKMEANS 132718 83.3 71.5 
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针对 传统 的 K-means 算法 在 大 数据 条 件 下 聚 类 存在 的 问题 ， 
本 文 提出 一 种 两 阶段 渐进 式 的 聚 类 算法 。 该 算法 在 第 一 阶段 采 
用 Canopy 算法 获取 初始 化 的 聚 类 中 心 ， 从 而 迅速 获取 粗 精 度 
的 聚 类 中 心 点 ; 第 二 阶段 基于 MapReduce 框架 给 出 了 并 行 化 设 
计 方 案 ， 使 外 围 数据 点 围绕 其 邻近 的 聚 类 中 心 完 成 进一步 地 细 
化 聚 类 或 合并 ， 并 重新 计算 每 个 聚 类 中 心 新 的 中 心 点 ， 从 而 对 
大 数据 实现 快速 、 准 确 地 聚 类 分 析 。 通 过 在 两 个 不 同类 型 和 大 
小 的 数据 集 进 行 实验 ， 发 现 改 进 的 Kmeans 算法 通过 两 阶段 浙 
进 式 的 聚 类 ， 大 大 减少 计算 量 和 复杂 度 ， 同 时 避免 了 聚 类 结 
陷入 局 部 最 优 效果 的 问题 ， 有 效 提升 了 算法 的 整体 聚 类 精度 。 

本 文 以 海量 的 互联 网 定位 数据 聚 类 、 教 育 数据 等 作为 应 用 
背景 , 利用 MapReduce 的 并 行 计 算 框架 , 将 Canopy-Kmeans 算 
法 进行 并 行 扩 展 。 本 文 算法 主要 基于 距离 指标 进行 聚 类 ， 对 于 
语义 分 析 、 行 为 模式 等 复杂 场景 的 应 用 还 不 太 适 应 。 在 下 一 步 
研究 中 ， 需 要 对 相关 算法 进行 扩展 ， 使 大 数据 聚 类 癌 着 更 加 入 
能 、 有 效 和 上 自 适 应 的 方向 发 展 。 
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